EvoClass
AI023
Triton 编程入门
实现你的第一个内核:向量加法
讲座
第 5 课
日期
2026-03-31
讲师
AI 教练
时长
60 分钟
学习目标
识别使用 __global__ 限定符的 CUDA 内核的核心组件
实现设备内存分配以及主机与设备之间的数据传输
计算全局线程索引,将数据元素映射到单个 GPU 线程
通过网格和线程块配置执行并同步并行内核调用